查看原文
其他

大模型“暴力计算”时代,昇腾如何突围算力之困? | WAIC2023

关注前沿科技的 光锥智能 2023-09-26

前沿科技,数智经济

文|姚    悦
编|王一粟

“这两年内,大模型带来了750倍算力需求的增长,而硬件的算力供给(增长)仅有3倍。”华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上,揭开了被大模型“暴力计算”引发巨大算力缺口的真相。 
而这个算力缺口还在进一步扩大当中,张迪煊预计,到2030年 AI 所需的算力,相对2020年还会增长500倍。
与此同时,由于众所周知的原因,算力国产化也迫在眉睫。
针对如何补足算力短板,毕马威中国数字化赋能主管合伙人张庆杰认为,需从三大途径解决,分别是算力建设、基础设施的共享与优化、算法的优化和数据的质量。这其中,算力建设被摆在首要位置。
华为在近年算力建设中颇为积极。据中信证券7月研报,国内现有城市智算中心中,以建设数量计,目前华为占据整体智算中心约79%的市场份额。
除了以量取胜,提升算力集群的能力更为重要。就在2023世界人工智能大会上,华为宣布昇腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,算力集群迎来“万卡”时代。
华为轮值董事长胡厚崑表示,昇腾AI的集群相当于把AI的算力中心当做一台超级计算机来进行设计,使得昇腾AI集群的性能效率达到10%以上的提升,而且系统稳定性得到十倍以上的提高。

张迪煊在群访中亦对光锥智能透露,早在2018年,华为就判断人工智能会快速发展,并改变过去小模型的开发模式,形成大算力结合大数据生成大模型的模式,所以华为那时候就开始开发算力集群产品。
步入AI时代,已经无法再像单机系统时代那样靠堆芯片拉升算力,而是要系统化重塑算力基建。在扩大巨量算力供给的同时,要解决算力利用率、使用门槛高等问题,最终还要实现算力生态化。

算力集群迎来“万卡”时代

今年ChatGPT引爆算力需求后,硬件端最先火的是GPU,英伟达总市值年内已经上涨了66%,最新为1.05万亿美元。
以英伟达A100为主的GPU成了大模型必备的香饽饽,但仅靠堆卡也无法应对“百模大战”的爆发之势。那么,如何把宝贵的算力资源,发挥到极致? 
既然单个服务器已经很难满足计算需求,于是将多个服务器连接成一台“超级计算机”,正在成为当下“算力基建”的主攻方向,这台“超级计算机”就是算力集群。
2019年,华为就发布了Atlas 900 AI训练集群,当时由数千颗华为自研昇腾910(主要用于训练)AI芯片构成,到今年6月已经支持到8000卡。而在刚刚结束的世界人工智能大会上,华为更是宣布计划今年年底或者明年年初,做到超过16000张卡的集群。
万卡集群是什么概念?
以1750亿参数量的GPT-3模型训练为例,使用8张V100显卡,训练时长预计要36年,512张V100显卡,训练时间接近7个月,而1024张A100的训练时长可以减少到1个月。 
按照华为的评估,训练GPT-3模型,100B的数据量,在8000卡的Atlas 900 AI集群下需1天即可完成训练,16000卡集群下仅需半天即可完成。 
但别看“万卡”算力大、效率高,真正想要用它去训练模型,绝非易事。
正像中国工程院院士高文所说,“有人说全世界能在1000块卡上同时选连一个模型的只有几千人,能在4000块卡上训练的不超过100个人,在10000块卡上训练模型的人数更少了”,在千卡和万卡上训练和推理数据,对于软件规划、资源调度挑战非常大。 
首先,万卡量级的训练,对分布式并行训练提出了更高的要求。分布式并行训练是一种高效的机器学习方式,将大规模数据集分成多个部分,再在多个计算节点上并行训练模型。这样可以极大缩短训练时间,提高模型准确性和可靠性。
昇腾算力集群的分布式并行训练,就需要倚仗华为自研的昇思MindSpore AI框架。 
昇思MindSpore支持多种模型类型,还开发了一套自动混合并行解决方案,实现数据并行和模型并行的混合并行训练。
相同算力和网络下,这样的双并行策略可实现更大的计算通信比,同时还解决了手动并行架构的现实困难,让大模型开发和调优效率提升。
此外,由于分布式并行训练,每训练出一个结果,需要所有的芯片同步一次,这个过程中,会有出错的概率。这种情况放在万卡规模量级上,就对于稳定性提出更高要求。
“昇腾的可靠性和可用性的设计,可以做到30天长稳的训练,对比业界的最先进3天左右水平,提升了将近10倍性能的稳定性、可用性优势。”张迪煊表示。 

算力集群的效率如何提升?

算力集群还不仅仅是规模扩大,效率也需要有很大提升,否则就会出现卡数越多,算力利用率反而下降的问题。
以华为在内蒙古乌兰察布市部署的数千卡规模的AI集群为例,在同等算力下,计算效率能够提升10%以上。
如果按照昇腾的指标,1000卡的算力约300P,千卡就能提升约30P,万卡就能提升约300P。
“300P算力24小时可以处理数十亿张图像、数千万人DNA、10年左右的自动驾驶数据。”一位从事云计算业务的人士向光锥智能表示,提升算力效率,也就降低了计算成本。
如果说从千卡的300P到万卡的3000P还得靠堆卡“大力出奇迹”,那这10%的效率提升,背后就需要更为复杂的系统性升级。
除了整合华为的云、计算、存储、网络、能源综合优势,昇腾算力集群还进行了架构创新。 
一台服务器就是一个节点,华为在计算节点层面创造性推出了对等平构架构,突破传统了以CPU为中心的异构计算带来的性能瓶颈,从而提升整个计算的带宽、降低时延,节点性能得到30%的提升。
此外,算力可是用电超级大户,尤其是上百台服务器联合起来,降低能耗也需要同步实现。
计算能力提升,服务器能耗也越来越高,传统风冷已经无法支撑高散热,就亟需解决如何能在政策严格限制PUE(电力使用效率)的情况下,仍保证服务器散热能力的问题。
在几种散热路线中,液冷被认为是主流的解决方案之一。
液冷方案本就比传统风冷方案更省电,昇腾采用了直接把冷夜注入每块芯片的精准供给方式,相比浸没式(流浪地球中放入海底的方案),可以降低日常运维的成本,也减少冷却液泄露污染环境的风险。
“精准供给取决于芯片板卡上都设置传感器、电控阀门,再加上中央控制,可以实现为不同芯片在不同的负荷下,提供精细化冷量输送。”华为计算工作人员向光锥智能介绍。
2021年11月,发改委等部门发布的文件明确指出,新建大型、超大型数据中心PUE低于1.3,而内蒙古、贵州、甘肃、宁夏节点的数据中心的PUE更是要控制在1.2以下。昇腾的算力集群已经实现低于1.15的PUE。

降低算力门槛,要靠生态

“电力是即插即用的,基本上不需要教老百姓怎么用。而算力,即便你提供给企业,很多人是不会用的。”中国工程院院士、中国互联网协会咨询委员会主任邬贺铨表示,现在算力(使用)门槛太高。
一位业内人士也向光锥智能表示:“中小企业很难得到训练服务器的技术支持,加上国产软件生态缺失,中小企业也很难自己玩转。”
即便算力集群怎么强大,需求端打不开,也终将会制约整个算力发展。而AI算力能否达到像电力一样的“低门槛”使用标准,生态尤为重要。
这也是为什么英伟达当年遭受华尔街的“白眼”,也要不计成本投入CUDA软件系统的原因。正是CUDA,实现让一个普通学生就可以进行显卡编程,英伟达进而利用软硬件协同,打造生态系统,最大程度扩大了算力供应。
除了英伟达,苹果在实现良好的用户体验方面,更早印证了生态系统的重要性。
当前,华为昇腾已经搭建了一套自主创新的软硬件全栈系统,包括昇腾AI集群系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等。CANN正是对标英伟达的CUDA + CuDNN的核心软件层。
张迪煊表示,“昇腾AI支持了中国近一半原创大模型的原生创新,也是目前国内唯一完成千亿参数大模型开发并商用的技术路线,各开源的Transformer类大模型实测训练性能,可以达到业界的1.2倍。”
这些背后,则是华为将上述的软件开源、硬件开放。 
首先,在基础软件上,昇腾围绕大模型开发、训练、微调、推理等全流程,进行了一系列的开源和支持。
除了已将AI框架昇思MindSpore开源,昇腾还提供了大模型的开发套件,可以支持十几行代码的全流程脚本开发。用张迪煊的话讲,就是“为了让大模型开发做到开箱即用”。
微调是大模型具备行业属性的关键环节,对应用效果起决定性作用。对此,华为昇腾提供了低参微调模块,集成了多种微调算法。张迪煊介绍,包括 LoRA、P-Tuning 等仅需 5%的微调参数,可实现全参微调的效果。
此外,针对大模型推理部署难、成本高等一系列的问题,华为昇腾在开发工具链 MindStudio 上集成了自动剪枝、蒸馏、量化工具,“精度损失0.5%的基础上,做到了20倍的模型压缩”张迪煊介绍,推理阶段支持在线分布推理,能够使应用快速上线,推理时延小于50毫秒。
“张迪煊介绍,推理阶段支持在线分布推理,能够使应用快速上线,推理时延小于50毫秒。
硬件方面,华为也对外提供主板、SSD、网卡、RAID卡、Atlas模组和板卡,来支持合作对象的AI硬件产品开发。
基于当前算力供应紧缺的情况,华为昇腾也重点针对“算子和模型”,提出了的迁移、适配的方案。

训推一体化

行业落地最后一公里

 

在初步搭建算力生态后,能否持续良性运转,最终还要回归到大模型商业化的问题上。
“不作诗,只做事”,华为刚刚发布的大模型盘古3.0,与其他国内大模型一样,落地的重点都放在了“行业”身上。而且盘古大模型已经在天气预测、药物研发和选煤等诸多行业、超过1000个项目中“上岗”。
不过,对于国产大模型整体来说,在深度满足行业需求上,还面临一些问题。 
“企业的需求非常具体,比如‘在这堆垃圾里,识别出有价值的金属’,这经过训练的小学生就可以做到,而对于大模型,企业的这种需求就太重了,而且可能最终的效果也不是很好。”企业服务商用友的一位工作人员向光锥智能表示,直接调用通用AI能力,无法满足行业中广泛存在的差异化智能需求。
华为把大模型分成三个层级,L0、L1、L2。L0就是基础通用模型,在基础模型L0的基础上,加上行业数据,混合训练得到的行业大模型是L1,然后再把L1针对具体下游千行百业的细分场景进行一些部署,得到细分场景的任务模型L2。
现在,无论是对于华为还是其他大模型企业,如何从行业大模型L1中快速生产L2模型,还有部署L2模型到端侧、边侧和云侧,成为打通行业应用最后一公里的问题。 
针对这最后一公里,昇腾联合科大讯飞、智谱AI、云从等上游的大模型合作对象,提出了“训推一体化”方案。
简单理解,做模型训练就相当于大学学习阶段,推理部署(训练好的模型在特定环境中运行)就是正式上岗,训推一体化就是“边学习边实习”。 
通用大模型一般都是基于广泛的公开文献与网络信息来训练,信息混杂,许多专业知识与行业数据积累不足,会导致模型的行业针对性与精准度不够,数据“噪音”过大。同时,又由于行业数据获取难,技术与行业结合难,大模型在行业的落地进展较慢。 
训推一体化,支持中心节点将模型下发至企业的边缘节点进行推理,边缘站点再将数据回传至中心,进行算法更新和增量训练,实现自主演进能力。也就是,“学生主动向更适应就业岗位的方向深造”。
这样一来,就保证训练到推理的循环生产流程不再割裂。并且把发展行业大模型更大的主动权,交到了行业和企业自身,无疑能最大化满足行业的AI应用与开发场景,实现AI基础设施与行业需求深度融合。
相较于中心训练、边缘推理,训推一体化对于中小企业来说,部署成本也会更低,更会加速中小企业加入行业、场景大模型的“培养”。
对于整个算力生态来说,尽快打通这最后一公里,也就意味着被真正激活,才会有可持续的发展。




联系我们




与主编交流、沟通请添加微信:cishicike000

商务合作请添加微信:GZZN2019

转载开白请留言或添加微信:GZZN2019

※添加时请备注公司+姓名+来意

「往期精彩推荐」


深度研报:

存算一体存储行业信创战略2022智能汽车盘点(上)2022智能汽车盘点(下)化学电池人工智能机器人|碳中和低代码/无代码VR/AR国产数据库碳中和氢能|协同办公RISC-V芯片

数字化:

微软云亚马逊云阿里云华为云腾讯云钉钉飞书国产数据库SaaS观察工业互联网Shopify|RPA|英伟达数据中心BI数智“东数西算”Figma撤退聚焦两会商业智能数字藏品

智能汽车:

上海车展禾赛科技上市港口自动驾驶零跑上市高通宏景智驾威马上市小米造车车企自研自动驾驶|自动驾驶黄金拐点高精地图无人重卡

芯片:

阿里造芯国产GPU中国芯片投资十年苹果芯片高通苹果WWDC2022英伟达
机器人:

优必选协作机器人机器人时代特斯拉AI Day海康机器人工业机器人物流机器人医用机械臂服务型机器人机器人新周期

投资人说:
华山资本 杨镭红点中国 刘岚华山资本 王志伟|华业天成资本 张仲荣势乘资本 刘英航势乘资本 谢晨星

投稿、开白、

商务合作、应聘


请添加小助手



更多精彩内容


关注商业数据派


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存